🗒️5000+AI项目深度调研|AI领域透视扫描
type
status
date
slug
summary
tags
category
icon
password
主要AI产品分类调研报告
本报告围绕当前市面上的主要人工智能(AI)产品,按类别进行调研分析。每一类别涵盖中英文生态下的代表性方案,并比较其开源/商业性质、免费/收费情况、用户体验与易用性、功能完备度以及与其他工具集成能力等方面的优劣。各类别下将通过对比表格呈现主要产品的特点和差异,对于相对次要的产品则予以简要提及。
导览
统计口径:只计入在正文里被单独点名并给出功能-优劣分析的条目;把同系列或同品牌不同版本(如 DALL·E 2/3、GPT-4/Vision/4o)合并为 1 项计算。略提一句而未展开(如 Orca、Mistral、ControlNet)不纳入“逐条分析”统计。
本报告共计调研超过5000+AI项目,由于很多项目功能同质化、市场关注度较低,大部分被忽略 / 一笔带过(原始目录清单如下)
- AI Tools Directory 标榜“5000 +”款工具 godofprompt.ai
- 其他中文导航(如 AI-Bot.cn)也有“数百-上千”条目 ai-bot.cn
本报告中着重分析的项目如下
版块 | 在报告中被逐条分析(≥ 1 段独立描述 / 对比列)的产品数 |
大型语言模型(LLM) | 12 |
多模态模型 | 5 |
智能体 / Agent 平台 | 4 |
AI 写作 & 文档 | 8 |
AI 编程助手 | 7 |
图像生成 | 6 |
视频生成 / 配音 / 剪辑 | 9 |
AI 搜索 / 问答 | 5 |
设计 / 3 D 建模 | 7 |
行业垂直应用(教育、医疗、法律、金融、客服等) | 17 |
汇总 | ≈ 80 款 |
1. 大型语言模型(LLM)
大型语言模型是生成式AI的核心。近年来全球涌现出多个强大的LLM模型,既包括OpenAI等公司的商业闭源模型,也有开源社区贡献的模型;中文领域也由百度、阿里等推出本土大模型,与英文模型分庭抗礼caprompt.comcaprompt.com。下表比较了当前具有代表性的中英语言模型:
模型名称 | 提供方/性质 | 开源情况 | 免费/收费 | 功能特点与优势caprompt.comcaprompt.com | 劣势与局限 |
GPT-4 (ChatGPT) | OpenAI商业模型(英文为主) | 闭源(API/服务) | 免费版本GPT-3.5,可付费升级GPT-4(订阅或API计费) | 通用能力最强,多轮对话、编程推理表现卓越;支持插件工具,生态丰富。GPT-4 还具备多模态能力,能够处理图像输入并生成分析caprompt.com | 仅通过OpenAI服务使用,成本高(GPT-4收费);对中文支持较好但非母语级;响应速度略慢(尤其与精简模型比) |
Claude 2 | Anthropic公司(英文) | 闭源(API/服务) | 提供有限免费体验和付费API | 强调“合宪性AI”,安全性好;上下文长度超长,擅长理解复杂长文档和代码caprompt.comcaprompt.com;多轮对话流畅 | 模型相对GPT-4略弱于某些任务;中文能力有限(重英文化);目前生态不如OpenAI广泛 |
Google Bard (PaLM 2/Gemini) | 谷歌(英文) | 闭源(服务) | 免费使用Bard服务 | Bard基于PaLM 2,整合Google搜索和Gmail/Docs等产品,实现即问即答和内容生成;Gemini为谷歌新一代多模态LLM,可处理文本、图像、音频乃至视频,计划融入谷歌全产品线caprompt.comcaprompt.com | Bard主要面向开放领域问答,有时准确性欠佳(存在幻觉);企业API支持和定制不如OpenAI灵活 |
文心大模型 ERNIE 4.0 | 百度(中文) | 商业闭源+部分开源版本 | 免费体验版,企业定制需付费 | 百度ERNIE系列持续迭代,4.0据称参数规模达万亿级,在中文理解和生成方面表现卓越caprompt.com;已融入百度搜索、新版聊天应用等,支持多语言;具备知识增强能力,包含知识图谱加持,适合问答和垂直领域 | 模型体量庞大,对硬件要求高;闭源服务形式为主,生态主要在百度系;英文等非中文能力相对有限 |
通义千问 Qwen-14B | 阿里巴巴(多语种) | 开源(允许商用) | 免费开源(模型权重开放) | 阿里提供Qwen系列大模型(含多模态),参数适中(14B)且对外开放blog.csdn.net。支持中英双语及多任务,企业可自由下载本地部署,或通过API使用;模型在对话和创作上性能优秀,在开源模型中名列前茅 | 开源模型需自行推理部署,普通用户直接使用门槛高;相较超大闭源模型,在极复杂推理上略有不足 |
LLaMA 2 | Meta(多语种) | 开源(部分商用许可) | 免费开放权重 | Meta发布的LLaMA系列是高性能开源LLM,最新版本在2024年底已至LLaMA 3系caprompt.com。衍生模型众多(如中文细调的駒*、Vicuna等),可本地运行,实现隐私和定制caprompt.com | 虽开源但需遵循许可证限制大型商用;基础模型需指令微调方能对话;在特定专业领域可能不如专门模型精通 |
其他提及: 此外还有如 Mistral(开源法语团队模型,支持128k长上下文和多语种)caprompt.com、Orca(微软开源小模型,13B参数通过模仿大模型推理达到接近GPT-3.5性能caprompt.com)、BERT(Google开源的NLP模型,用于理解任务)等caprompt.com。在中文领域,科大讯飞的星火、360的智脑、清华&智谱的ChatGLM等也各具特色,纷纷在各自优势场景中表现出色。总体来看,英文商业模型在综合能力上领先,但本土中文LLM通过知识增强在中文理解和垂直应用上逐步追赶甚至超越(据百度称其ERNIE 4.0在中文已超GPT-4)。用户和开发者可依据需求选择闭源服务(体验好但受控)或开源模型(灵活可定制),在性能、成本与集成上的平衡agent.csdn.netagent.csdn.net。
2. 多模态模型(文本-图像/音频模型)
多模态模型能够同时处理文本、图像、音频等不同形式的数据,在理解和生成跨模态内容上有独特优势。代表性例子包括具备视觉能力的GPT-4、整合文本和图像的CLIP,以及将语音融入对话的GPT-4o等。以下比较几种主要的多模态AI方案:
- GPT-4 Vision / GPT-4o(Omni) – OpenAI在GPT-4基础上扩展的多模态模型,可输入图像并输出文字说明和分析结果caprompt.com。2024年发布的GPT-4o进一步整合了语音和视觉:模型可以直接理解语音输入、解析图像内容,并以语音形式实时回应用户blog.csdn.net。这使交互更加自然,聊天机器人无需先语音转文字再回答,响应速度显著提升。GPT-4 Vision已用于ChatGPT应用中(如用户上传图片询问解析),而GPT-4o标志着真正的“全模态AI”雏形,将图文语音融为一体,为视障辅助、智能监控等场景带来新可能。OpenAI这类闭源多模态模型提供强大能力,但使用需要通过其服务,存在费用和隐私限制。
- Google Gemini 多模态模型 – 谷歌新一代大模型Gemini具备全面多模态处理能力caprompt.com。它继承Pathways架构,能够理解文本、图像、音频乃至视频,并据此进行生成。Gemini预计会深度整合到Google产品矩阵中,例如在Google搜索中解析用户上传的图片查询,或在Gmail中根据语音邮件自动回复等caprompt.com。Gemini尚处测试阶段,谷歌Bard已部分体现多模态(支持用户输入图片提问)。作为商业闭源模型,Gemini强项在于谷歌生态深度结合和多语言多媒体知识,但开放使用上可能受谷歌服务限制。
- 开源多模态模型(如LLaVA、ImageBind等) – 开源社区也推出多模态模型,比如基于LLaMA的LLaVA能够在视觉问答中取得不错效果,将图像编码后供语言模型回答问题。Meta的ImageBind甚至尝试统一6种模态(图像、音频、文本、深度等)的表示空间,让不同模态信息相互关联。还有如Stable Diffusion V2衍生的文本-图像-音频混合模型等。开源多模态方案通常免费且可本地部署,利于研究和私有数据应用,但在整体效果上暂时不及超大规模的商业模型。比如ImageBind能将声音或图像投射到共同向量空间,但并不能直接对用户输入进行丰富的多模态对话。这类模型更适合作为模块融入应用,例如视频字幕生成、音频内容检索等特定任务。
- 中文多模态模型 – 国内也有面向多模态的探索。百度文心大模型4.0已强调跨模态语义理解,可实现文字问答、图像生成、图片文档信息抽取等能力cloud.baidu.com。阿里巴巴的通义千问发布了开源Qwen-VL和Qwen-VL-Chat模型,支持图文对话与图像理解,在开源测试中表现优异。科大讯飞星火模型也正在开发图文并茂的交互形态。整体而言,中文多模态模型正借鉴国际前沿并结合本土应用需求(如识别图片中的汉字文本等)不断提升。
集成与应用: 多模态模型已经在实际产品中应用。例如,新版必应搜索可以解析用户上传的图片并对其提问(背后采用OpenAI视觉模型);Snapchat等应用能根据照片内容由AI生成贴纸或滤镜效果;语音对话助手(如苹果Siri改进版)则通过Whisper等模型将语音转文字,再用LLM生成回答并语音合成返回。多模态AI也用于辅助残障人士(图像描述语音)、监控分析(自动识别视频画面事件)等领域。然而,多模态模型通常非常庞大(参数多,需求算力高),且存在模态间对齐困难、标注数据稀缺的问题,因此领先产品多为少数科技巨头掌握。随着算力增强和训练数据积累,我们可以期待未来多模态模型在输入输出形式的灵活性和对不同媒介信息的融合理解上取得更大突破,为用户带来更自然强大的AI体验。
3. 智能体/Agent平台
“AI智能体”平台旨在让大型语言模型像代理人一样自主感知环境、决策并执行复杂任务。此类平台通常提供一个框架,将LLM与工具(如浏览器、代码执行器、数据库)连接,实现多步任务规划和自动化。例如2023年兴起的AutoGPT项目,就是让GPT-4在没有人连续提示的情况下自主生成下一步行动(如联网搜索信息、分析再改进方案),尝试完成用户给定的目标任务。
目前市面上一些代表性的Agent平台有:
- Coze(字节跳动「扣子」平台) – 由字节跳动推出的可视化聊天机器人开发平台agent.csdn.net。Coze主打低代码/零代码,开发者无需精通模型原理即可通过拖拽配置构建聊天智能体。Coze提供了丰富的模板和组件,并内置Web SDK,方便将定制的聊天机器人嵌入网页或应用中agent.csdn.net。应用场景上,Coze支持在线客服、教育辅导、个性化推荐等多种对话式AI服务,通过ByteDance生态可以快速触达用户,为产品增值。目前Coze平台对开发者免费开放基础功能,高级企业版可能收费。其优势是上手门槛低、封装完善,适合想迅速搭建聊天机器人的团队;劣势在于灵活度受限于平台预设,复杂定制能力略逊传统开发。
- Dify – 由苏州语灵公司开源的LLM应用开发平台agent.csdn.net。Dify融合了后端即服务(BaaS)理念,提供现成的用户管理、数据存储等后端能力,以及LLM调用、对话流程控制等LLMOps功能。开发者可以用Dify高效构建检索增强问答(RAG)系统,将自有知识库接入大模型问答agent.csdn.net。Dify开放源码且支持本地部署,意味着免费且可定制扩展;官方也提供云托管服务方便快速体验。Dify的优点是开源自主,功能完整(包括知识库、对话流程设计、模型管理),上手相对容易;不足是需要开发者具备一定技术能力进行部署和调整,自身不提供模型,需要连接OpenAI API或本地模型。
- FastGPT – 国内环界公司推出的知识库问答系统,也是一个开源Agent平台代表agent.csdn.net。FastGPT强调“开箱即用”,用户无需复杂配置即可通过其界面上传自己的文档或数据,然后利用内置的大语言模型接口快速实现问答机器人。它内置数据预处理、向量检索等模块,支持多格式文件导入,并提供现成网页UI。FastGPT适合企业搭建内部知识问答助手或对外的智能客服FAQ系统。作为开源项目,其基础版本免费,但商业服务版可能收费提供更大支持。由于聚焦知识问答,FastGPT对任务的泛化能力不如AutoGPT这类通用Agent,但在文档QA这个垂直场景具备易用高效的优势。
- AutoGPT / BabyAGI 等自主代理 – 这类开源实验项目让AI尝试像人一样连贯完成任务。典型模式是给定最终目标后,智能体会自己生成待办任务列表,执行其中一步,观察结果,再调整任务,循环往复直至完成。AutoGPT依赖强大的基础LLM(如GPT-4)和一些工具插件(联网搜索、文件读写等),可以部分实现简单的自主决策执行。其亮点在于探索了AI自动化的可能边界,但现实中可靠性有限,经常跑偏或陷入循环。使用AutoGPT需要提供OpenAI API密钥,按照调用次数收费,属于开源代码+付费API模式。当前这些自主Agent更多是技术爱好者尝鲜,未有大型商业落地,但它们的理念正在被更成熟的Agent平台借鉴吸收。
集成能力与生态: 智能体平台通常强调与外部工具和服务的集成。例如Dify和FastGPT支持连接数据库或知识库用于RAG增强,Coze则有多渠道SDK供嵌入网页、APP等agent.csdn.net。很多平台还能结合第三方LLM接口(OpenAI、Azure等)或私有化模型,给用户灵活性。在国外,OpenAI的Function Calling功能、LangChain框架等也提供了Agent式的工具链集成能力,方便开发者让模型调用代码、检索信息等。云厂商如AWS也推出了类似Agent orchestration服务(如AWS Bedrock Agent),便于企业将AI代理嵌入业务流程。总体看,Agent平台的竞争在于易用性 vs. 灵活性的取舍:Coze这类封装好的低代码平台易用但受限,而LangChain+自行开发的方式灵活却门槛高。未来的发展可能是提供模块化可定制的中间路线,让开发者既能方便拖拽组件,又可深入调整关键逻辑,以满足不同复杂度场景下对AI智能体的需求agent.csdn.netagent.csdn.net。
4. AI写作与文档处理工具
AI写作助手利用大模型的文本生成能力,为用户撰写各类内容、润色修改文稿提供便利。此类产品既包括面向普通用户的文档工具插件,也有专为营销文案或创意写作设计的专业平台。以下对比几款知名的AI写作工具:
工具名称 | 商业/开源 | 免费使用情况 | 局限与集成 | |
Notion AI | 商业(Notion笔记内置) | 需订阅Notion付费版(个人专业版等含AI功能) | 集成在Notion笔记/文档中,一键让AI总结笔记、润色文字、生成大纲等atalk-ai.com。能根据上下文理解用户要求提供写作建议,支持多语言,对接Notion强大数据库和模板体系,方便在工作流中直接调用 | 依赖Notion生态,脱离Notion则无法使用;免费额度有限(需付费解锁持续AI调用);生成内容风格受限于通用模型,领域专业性需用户把关 |
Jasper | 商业(独立AI文案平台) | 提供免费试用,完全使用需订阅(月付) | 老牌AI营销写作平台,内置50+模板涵盖博客文章、广告文案、社媒帖子等zhihu.com。针对企业营销优化,支持团队协作和定制品牌语气。Jasper基于GPT系列模型但进行了大量微调,输出更贴合营销场景(如SEO优化)iartificial.blog。可插入浏览器或CRM,方便随处润色文案 | 主要专注英文内容营销,中文支持较弱;价格较高(定位企业用户);模板固化在营销领域,对自由创作文稿帮助有限;需联网使用(SaaS服务) |
Copy.ai / Writesonic 等 | 商业(在线文案工具) | 有免费计划(通常有限制),高级功能订阅制 | 这类工具类似Jasper,提供多样的写作模板。以Copy.ai为例,其利用AI帮助撰写博客、广告、产品描述等,宣称生成内容逐字原创无抄袭36dianping.com。许多中文博客也推荐如Writesonic、Rytr等,优点是易用界面+多模板+多语言,上手非常简单 | 同质化严重,各平台背后模型类似(多基于GPT-3/3.5);免费额度有限且生成质量偶有重复;对专业长文(如学术论文)支持不足,主要偏短内容和营销文案 |
GrammarlyGo | 商业(Grammarly写作辅助) | 免费基础版(语法检查),AI生成需高级账户 | 著名语法检查工具Grammarly推出的生成式AI功能。可根据用户提示续写段落、改写句子、调整语气等。集成在Grammarly插件中,支持Office、邮件等场景。以其语法检查优势,AI生成内容同时保证语法和措辞恰当。 | 功能相对单一,偏重改写润色而非从零生成整篇;中文支持较差(Grammarly主打英文);作为闭源服务,无法自定义风格,隐私内容上传可能有顾虑 |
其它补充: 面向写作的AI工具数不胜数。例如Moonbeam注重长篇文章和故事生成atalk-ai.com;Sudowrite专攻小说写作提供灵感;还有国内的Adwrite等营销文案平台,可以生成电商商品描述、短视频脚本、SEO文章等,部分提供一定免费字数额度,然后按字数付费blog.csdn.net。许多传统笔记/办公软件也接入了AI能力:如微软Word的Editor with AI、WPS的AI助手等,可在文档中直接提炼摘要、翻译或根据大纲扩写。对于学生和研究者,ChatGPT本身也是常用写作利器,但专业场合需注意引用和准确性。一些垂直写作场景也出现AI工具,如学术论文润色(写作猫学术版)或法律文书生成(LegalClause AI)等。总体来说,AI写作工具能极大提高文字工作的效率和灵感,但用户仍需负责审核和引导,确保最终内容符合真实意图和质量要求。
5. AI编程助手
AI编程助手利用大模型为开发者提供自动补全、代码片段生成、错误调试解释等功能,旨在提升编程效率。近两年涌现出多款此类工具,包括大型公司产品和独立AI插件。下面对几个主流AI编程助手进行对比:
产品名称 | 提供方 | 开源情况 | 收费模式 | 劣势与限制 | |
GitHub Copilot | GitHub(OpenAI模型) | 闭源(云服务) | 付费订阅(学生可免费) | 深入IDE的智能补全,可根据上下文实时预测编写下一行或整段代码。对主流语言支持好,尤其擅长日常开发中的样板代码生成。和VS Code等编辑器集成度高,几乎成为云时代“自动完成”的标配 | 需要联网调用OpenAI模型(Codex/GPT-4),存隐私代码可能上传云端;年费约$100不算便宜;有时会生成过时或不正确代码,需开发者审查 |
Tabnine | Tabnine公司 | 部分开源(客户端AI可离线) | 免费基础版,小型本地模型免费,云高级版订阅 | 资历较早的AI补全工具。提供本地模型选项,在不开启云的情况下也能完成部分代码补全,保障隐私。支持多种IDE和语言,补全响应快。免费用户可使用小模型离线(精度一般),付费用户享大型云模型更智能补全 | 补全质量相对于Copilot略逊,多为合成已有代码片段zhuanlan.zhihu.com;免费版能力有限;开源项目代码可能有许可证风险需注意 |
Amazon CodeWhisperer | 亚马逊AWS | 闭源(云服务) | 个人免费(AWS账号),企业增强版收费 | AWS推出的代码助手,主打与其云生态集成。优点是免费开放给个人开发者使用,并且在代码安全上做了过滤(标注生成代码的潜在安全问题)。在Python、Java等常见语言上表现良好,且对AWS服务相关代码提示优化 | 相比Copilot支持的IDE稍少;生成代码更保守,创造性不如GPT系列;中文注释和说明支持欠缺;企业版虽有集中管理等功能但需额外付费 |
Codeium | Exafunction创业公司 | 开源模型(Code LLM) | 免费提供个人云服务 | 新兴的免费AI编程助手,定位为Copilot开源替代。其模型在大量代码上训练且免费不限次数使用,对于个人开发者非常友好docs.pingcode.com。支持VS Code、JetBrains等,通过浏览器插件也能在网页IDE中使用。Codeium还开源了部分模型权重,技术社区活跃 | 由于免费,可能在高峰期响应变慢;模型性能接近Codex但未必达到GPT-4水平;开源模型本身缺乏代码以外的知识(如最新库文档); 企业可能担心数据合规问题 |
除了上述,Replit Ghostwriter(Replit在线IDE的AI助手,付费)、Cursor AI(Anysphere公司推出的AI编程IDE)、Kite(已停止维护的早期助手)等也值得一提。其中Cursor是一个融合了编辑器和助手的新型IDE:基于VS Code改造,内置GPT模型接口fisherdaddy.com。Cursor不仅能自动补全,还支持聊天问答形式,开发者可以像和助手对话般询问“这段代码有什么问题”或要求“重构此函数”,Cursor会阅读整个项目后给出答复cursor.com。它还能从代码库/文档中检索答案并引用文件,用户一键应用修改cursor.com。Cursor提供免费版本(有限请求数)及高级订阅,据称其结合了自研定制模型和OpenAI前沿模型,在保持速度的同时提升准确度cursor.com。这类集成IDE的方案提高了AI与开发流程的融合度,不过目前支持的语言和框架可能不如插件型助手广泛。
集成生态: 各编程助手大多提供IDE插件(VS Code、IntelliJ等)或编辑器内置形式,尽量做到即时提示而不扰乱开发流程。Copilot进一步推出了Copilot X计划,包括命令行shell补全、Pull Request代码审查AI等,深入开发各环节。与此同时,诸如Stack Overflow等社区也在探索内置AI解答编程问答。可以预见未来IDE将普遍内嵌AI助手,成为标配功能。但也需关注AI编写代码的知识产权归属(Copilot因训练数据涉嫌版权问题受过质疑)和代码准确性问题——AI给出的代码必须经人审阅和测试。总的来说,AI编程助手已能显著提升简单代码的编写速度和减少样板工作,但在架构设计、复杂逻辑方面仍主要依赖程序员本身,二者形成“人机协作”的模式最为高效blog.csdn.net。
6. AI图像生成工具
AI绘画和图像生成是当前AIGC最火热的领域之一。用户只需提供文字描述(Prompt),模型即可在几秒钟内生成相匹配的图像cloud.tencent.com。其中最流行的三大平台是 Midjourney、DALL·E 和 Stable Diffusioncloud.tencent.com。以下对比这三者:
平台 | 模型性质 | 开源情况 | 收费模式 | 功能特点 | 使用门槛及限制 |
Midjourney (Discord AI绘画机器人) | 商业服务(自研模型) | 闭源 | 付费订阅为主 (新人有约25次免费试用)cloud.tencent.com | 效果: 风格艺术化、多样性高,善于生成细腻光影和创意插画,在逼真写实和幻想风都有佳作;支持图生图(根据参考图风格生成变体)、高分辨率放大cloud.tencent.com。易用: 通过Discord聊天界面使用,输入 /imagine 提示词 即可,默认一次出4张图供挑选cloud.tencent.com。有社区图库可供参考其他人prompt | 需加入Discord,交互对新手略显陌生;免费额度很快用尽,此后**月费$10+**起;不提供本地部署; 内容规则较宽松但仍禁止明显不当题材;生成结果具有Midjourney独特审美,有时细节过度“梦幻” |
DALL·E 2 / 3 (OpenAI图片生成) | 商业服务(OpenAI模型) | 闭源(API可用) | 提供少量免费积分 超出后购积分cloud.tencent.com (ChatGPT Plus用户集成DALL·E 3) | 效果: 对提示理解准确,合成质量稳定。擅长照 realism和具体场景,企业应用成熟zhuanlan.zhihu.com。支持编辑和变体:可以给已有图片局部打码后让AI重绘(inpainting),或基于一张图生成多个改编版本cloud.tencent.com。输出分辨率固定1024x1024cloud.tencent.com。易用: 有网页版(labs.openai.com)和API,也嵌入必应图像创作和ChatGPT插件。首次送50积分,当月用完,每月续15积分cloud.tencent.com;也可购买包($15得115次)cloud.tencent.com | 模型闭源仅能通过OpenAI服务使用;针对敏感内容有严格过滤(如真人脸、名人、某些符号等不生成);分辨率和纵横比灵活性不如其他方案;英文提示效果佳,中文支持稍弱(需提供英文prompt) |
Stable Diffusion (Stability AI) | 开源扩散模型 | 完全开源 | 免费(本地运行) 付费服务(DreamStudio等) | 效果: 依赖模型权重和训练数据,不同版本和衍生模型差异较大。总体上SD生成速度快,可通过微调LoRA等定制风格或特定人物。分辨率可达1024×1024cloud.tencent.com以上,且支持任意尺寸裁切。易用: 开源后社区生态丰富,有多种前端UI(如AUTOMATIC1111的WebUI)实现一键出图;用户也可使用官方DreamStudio网页(注册即有免费额度)。模型可本地部署在10GB以上显存GPU上cloud.tencent.com;可扩展出ControlNet等插件,实现更可控的绘制(指定构图、姿势等) | 对小白较不友好:需自己安装环境或借助Colab;prompt技巧影响极大,需要试验;基础模型直接生成质量可能不如MJ,需要搭配模型权重(如动漫模型、写真模型)使用;内容监管全凭用户自控,存在潜在版权与不当内容风险cloud.tencent.com |
补充:
- 功能完备度与集成:Midjourney目前不支持细粒度编辑,需要借助外部工具再结合AI修图;DALL·E内置画笔擦除和区域编辑,适合迭代修改创作;Stable Diffusion则通过插件可实现图生图、局部重绘、动画视频等广泛功能。集成方面,Midjourney仅以Discord Bot形式存在,第三方接入有限;DALL·E有开放API,已嵌入微软Bing、Adobe Photoshop插件等;Stable Diffusion因为开源,可被各种应用自由使用(如设计软件插件、游戏引擎集成AI美术)。
- 中文生态:国内也有一些AI绘画平台。如百度的文心一格(ERNIE-ViLG模型)提供在线中文图像生成;亦有创业产品如Midai、画宇宙等。但当前国内用户大量也是借助Midjourney或Stable Diffusion(搭配中文模型权重)来生成二次元插画、设计图等。值得一提的是,生成式美术在国内受到一定内容合规要求,部分平台对涉及人物肖像、敏感元素的创作有限制。因此,不少专业设计师会选择在本地用Stable Diffusion跑自定义模型以避开限制,同时掌控风格。
- 版权与商业化:三大平台均允许生成图商用。Midjourney订阅用户对其生成图拥有商业使用权cloud.tencent.com;DALL·E同样声明用户可将生成图用于任何合法用途包括商业cloud.tencent.com;Stable Diffusion更因开源,无版权束缚(除非模型训练含有受版权素材,需要用户自行判断)。不过行业仍在探索AI生成内容的版权归属问题,但目前倾向赋予用户作品使用权以促进创作生态。
综上,AI绘图工具各有侧重:Midjourney适合追求一键出效果、风格艺术的个人和创意人士;DALL·E适合需要精确控制、编辑修改,以及企业通过API集成应用;Stable Diffusion则给予开发者和专业用户最大自由度去深度定制。对于一般用户,入门可先体验Midjourney或必应图片创作直观感受AI绘画的魅力,再根据需求决定是否深入学习Stable Diffusion微调模型等更高级操作。
7. AI视频生成、配音与剪辑
与图像相比,视频生成难度更高但进展迅速。近年出现多款AI视频工具,从文本生成短视频,到数字人直播、音频配音合成、智能剪辑等。以下介绍几种主要类别及代表产品:
文本生成视频 / 图生成视频: 这类工具可直接将文字描述(或静态图片)转换为动态视频片段。
- Runway Gen-2 – Runway公司推出的第二代文本生成视频模型,可生成约4-8秒的视频片段。用户输入一段文字描述,Gen-2会产出对应动画影像。Runway提供网页版工具,新用户有约525积分(约可生成105秒视频)免费额度,之后按积分收费(每秒需5积分,超出$0.01/积分)zhuanwaifu.com。订阅标准版$15/月可获得每月125秒视频额、无水印、高分辨率等权益juejin.cn。Runway的优势是生成质量在业界领先:视频清晰度和连续性较好,适合艺术家制作素材。还支持图生视频(根据输入图像生成其风格动画)。集成方面,Runway自带视频编辑套件,可进一步对生成结果剪辑、加特效等。但目前长度有限,且生成的视频无声音(需另配音)。使用门槛相对一般用户稍高(需要英文描述和理解视频概念)。
- Pika Labs – 一个新锐的AI视频创作平台,特色是提供Discord机器人接口,用户在Pika的Discord频道输入
/create
命令加描述即可生成3秒短视频ai-bot.cnai-bot.cn。Pika支持文本转视频以及图片转视频两种主要功能ai-bot.cn。例如上传一张静态插画,Pika会让其中元素活动起来形成动画。亦可将一段已有视频转换风格,比如把真人视频转成动画风格ai-bot.cn。Pika自2023年4月测试上线,短短几个月吸引超50万用户,每周生成数百万条视频ai-bot.cn。目前处于免费公测阶段(未来或推收费版),生成过程需排队约数十秒ai-bot.cnai-bot.cn。优点是操作门槛极低,完全零剪辑经验的人也能做出短视频ai-bot.cn;支持的风格多样(3D动画、卡通、电影质感等ai-bot.cn),在TikTok等平台已有大量#pikalabs标签的炫酷视频流传ai-bot.cn。局限在于目前每段仅3秒ai-bot.cn且分辨率有限,更长视频尚不支持;生成内容偶尔存在畸形或抖动,离专业影片质量仍有差距ai-bot.cn。
- 清影 – 这是中国智谱AI推出的文生视频产品,值得一提。清影基于智谱自研CogVideo大模型,可生成6秒左右的视频片段jiqizhixin.com。只需输入几个字到几百字的创意描述,等待30秒左右,即可生成视频jiqizhixin.com。清影目前免费不限量向公众开放测试,甚至提供API供开发者接入jiqizhixin.com。作为国内大模型的探索,清影让全民无门槛体验AI短视频。不过,据早期体验反馈,其生成的视频清晰度和连贯性还有提升空间zhuanlan.zhihu.com(毕竟技术前期),一些复杂场景可能难以准确呈现toolify.ai。但清影的出现标志国产AI视频开始发力,且走开源免费路线,在AIGC视频领域“卷”出新高度。
数字人视频 / 虚拟配音: 另一类热门应用是让AI驱动虚拟数字人或替身,生成有人物讲话的影片。
- HeyGen(原视迹) – 一家提供AI数字人视频服务的公司。用户可以选择预设的人物形象(不同性别、种族的虚拟演员),输入要说的台词文本,选择语言和声音,HeyGen就会生成该数字人对着镜头说出台词的视频。广泛用于企业制作营销宣传片、多语言培训视频等。其特点是支持中文等多语言且唇同步较准确,人物表情自然逼真。HeyGen收费按生成时长,商用需要订阅套餐。类似的还有Synthesia(欧美市场知名度高)和国内的虎牙虚拟主播技术等。这类平台的优势在于快速生产真人出镜效果内容而无需真人拍摄,成本低。缺点是人物动作受限(基本站姿说话),比较适合演示/播报类视频,不适合剧情复杂的表演。
- Descript – 这是偏向后期剪辑的软件,但融入AI配音和编辑。Descript能自动转录视频中的语音,然后允许用户直接编辑文字脚本来完成对视频的剪辑(删字=删画面)blog.csdn.net。其Overdub功能甚至可克隆配音者的声音,补充修改几句对话而无需重新录音。Descript还提供AI自动移除口头语(呃、啊)、智能放大缩小镜头等便捷功能。对于播客制作者、线上课视频制作者而言,Descript极大提高了剪辑效率。它有免费版(有限制),完整版订阅制。Descript体现了AI在辅助剪辑上的威力:让复杂的音视频编辑变得像编辑文档一样直观。虽然不直接“生成”视频内容,但在内容创作流程中同样重要。
其他AI在视频领域的应用:
- 智能剪辑与特效: 除Descript,像Adobe发布的Premiere Pro AI功能可自动分析素材生成粗剪,或者通过一句话描述让AI添加特定特效。还有初创如Wisecut,可自动根据音频内容剪辑掉冷场,或者利用人脸识别在多机位中切换镜头。AI还能用于视频的风格转换(比如把真人录像转成动画风格)等。
- AI配音与音频生成: 纯音频方面,ElevenLabs之类AI可以克隆任意人声朗读文本,生成高逼真度配音,用于有声书、播客等。国内科大讯飞等的TTS早已商业化多年,现在引入更自然的生成对话语气。未来我们会看到画面生成+配音合成打包的一站式视频工具。
总的来说,AI正在逐步渗透视频内容生产。从前期的素材生成(画面、角色、对白)到后期的剪辑润色,均有AI帮手出现。限于技术现状,全自动生成一个长篇高质量视频(如电影情节)仍很困难,目前AI视频更适合短内容(几秒广告、片头动画)或辅助人工(人机合作做课程视频等)。但进步是快速的,随着模型更迭,我们可以预见更长、更清晰、更可控的AI视频问世,例如Stable Diffusion生成逐帧动画、GPT协同剪辑完整影片等,彻底革新视频行业的生产力。
8. AI搜索 / 问答引擎
AI搜索引擎结合了搜索技术与大模型问答,为用户提供类ChatGPT风格的问答式搜索体验。与传统关键词匹配搜索不同,AI搜索能理解自然语言问题、整理多源信息并给出直接答案,有时还能引用出处。代表产品有:
- Bing Chat(新必应) – 微软必应于2023年整合了OpenAI的GPT-4模型,推出聊天搜索。用户在必应中提问,AI会实时联网搜索相关网页,再以对话形式综合回答并附上引用来源链接。它相当于把搜索引擎+ChatGPT合二为一m.36kr.com。Bing Chat目前免费开放,支持中文等多语言,甚至可处理图片输入。优点是信息实时(模型可检索新网页),回答有来源可信度高;与Office等微软产品集成,能在Edge浏览器侧栏充当助手。缺点是有时对某些查询仍会只给出链接,不如直答丰富;而且由于内容合规,部分敏感问答会拒答。
- Perplexity AI – 知名AI问答搜索创业公司。Perplexity提供一个简洁界面,用户提问后AI给出简要回答,同时罗列引用的网页来源,让用户进一步阅读salesforce.com。它的特色在于快速引用和连续对话:可追问细节,AI会再次检索和回答。Perplexity还支持选择“学术”、“写作”等模式,对应不同场景优化答案。服务基本免费。相比之下,Perplexity比必应更专注QA本身,没有广告;但信息来源依赖搜索引擎(调用Bing API),中文环境偶有搜索效果不佳的问题。
- YouChat (You.com) – You.com是一个主打可定制的搜索平台,内置YouChat聊天助手。YouChat基于自有大模型(或OpenAI API),能够回答一般问题,也可调用其搜索结果增强。但YouChat早期回答准确性一般,经常出现“不靠谱”情况,不过You.com允许用户切换到垂直App(如代码搜索、百科)获取更精确结果,形成多模态搜索结果页。YouChat的优势在于注重隐私(不跟踪用户)和可扩展插件,但回答质量相对于Bing/Perplexity稍逊,目前用户量和生态也有限。
- Baidu文心搜索 / 文小言 – 国内的生成式搜索代表。百度在2023年开放了整合文心大模型的搜索新模式,推出“文心一言”App并升级为**“文小言”智能助手**qbitai.com。文小言实现了问答即搜索:“问就完事儿”,无须输入关键词筛选结果qbitai.com。用户既可以问事实问题,也可以让AI创作内容或交流需求,因为它融合了聊天与搜索qbitai.com。支持多模态输入(文字或图片)和富媒体输出。独家功能包括“记忆”(记住用户偏好,实现个性化对话)和“自由订阅”(一句话订阅某主题更新)qbitai.com。据百度透露,新搜索引擎上线后,每日已有数亿次查询由生成式AI引擎直接回答cn.chinadaily.com.cn。文心搜索的优点是在中文语境下本地化效果好,且整合百度知识图谱、百家号内容等丰富数据;劣势是仅限百度生态使用,且回答偶尔有不准确或偏颇,需要继续优化大模型准确率。
- 360智脑 AI搜索 – 奇虎360也推出了360AI搜索App,主打“生成式AI答案引擎”apps.apple.com。特色在于集合多家模型:据介绍,它会调用360自研智脑模型,以及合作的大模型如智谱的“豆包”、阿里的“千问”等协作回答bbs.360.cn。这样在用户提问后,不同模型可能各自给出答案,360再综合。这种“一站式体验多模型”方式在国内尚属少见。360AI搜索对公众免费,附带数字人形象陪聊。由于集成多模型,答案风格和质量有时不一致,但整体上也是中文AI搜索一个有益补充。
垂直领域及集成: AI搜索除了一般知识问答,在垂直领域也有应用。例如医学搜索中,科大讯飞研发了医学大模型“医助”,可帮助医生查询疾病知识;法律搜索有北大开发的法条智能问答,用大模型检索法规并解答。此外,一些专业网站(如StackExchange)引入了AI助手辅助搜索站内问答。对于企业内部,企业知识库问答则通过RAG(检索增强)实现员工在内部文档中提问,AI综合答案。像Morgan Stanley已经用GPT-4构建内部理财知识库助手,让顾问搜索10万+财务文件得到精准答案wallstreetcn.com。这类方案提升了员工查找资料和决策的效率wallstreetcn.com。总体来看,AI搜索正融合搜索引擎和问答助手的优点,但也面临挑战:包括确保答案真实可靠(需要引用验证),以及如何商业化(目前大多免费吸引用户,没有成熟盈利模式)。未来,可能会看到AI搜索与浏览器、知识管理系统深度结合,成为用户随处可问的智能信息管家。
9. AI设计 / 3D建模
AI在设计和三维建模领域的应用,主要帮助降低专业门槛,让非设计师也能完成UI界面设计、简单3D模型制作等工作。关键类型产品包括:AI生成UI/网页设计、AI生成3D模型和场景、辅助平面设计排版等。
- Uizard – 这是全球首个AI驱动的UX/UI设计工具之一m.sohu.com。Uizard可以根据文本描述自动生成多屏幕的应用原型aigc.cn。例如用户输入“一个电商应用,有商品列表和购物车页面”,Uizard就能在几秒内给出对应的多屏原型草图zhuanlan.zhihu.com。它还支持将手绘草稿或截图上传,AI会识别其中的UI元素并转化为数字原型m.sohu.com。Uizard提供实时协作功能,团队可以共同编辑设计aigc.cn。作为云端工具,用户无需下载安装,通过浏览器即可使用,支持多平台,非专业人士几分钟就能上手ai-bot.cn。基本功能有免费计划(每月有限的AI生成次数),高级功能订阅$12/月起subframe.com。Uizard的优势在于极大提升了原型设计速度,自动组件布局让初学者也能做出像样界面ai-bot.cn。不足是复杂自定义仍需人工调整,AI生成的设计趋于通用模板风格,对于高保真视觉设计和品牌个性化,需要设计师再加工。
- Spline AI – Spline是一款轻量级3D设计工具,2023年加入了AI 3D生成功能reddit.com。借助Spline AI,用户可以通过文字或图片生成3D模型、场景和动画aiww.com。例如输入“a house with red front door and three windows”,AI会直接创建对应的立体房屋模型aiww.com。也可以上传一张2D图片,Spline通过算法将其转换为3D物体aiww.com。生成后,Spline提供直观编辑界面,可拖拽缩放旋转模型,并实时预览效果aiww.com。此外,它还支持AI生成材质贴图,为模型自动添加真实纹理aiww.com。Spline AI基础功能部分免费,对复杂生成和素材库则收费(有Pro版本)。其优点是大幅降低了3D建模门槻 – 以前零建模经验的人也能凭创意做出简单3D内容vocus.cc。并且Spline生成的模型可一键导出为代码嵌入网页,方便开发者使用vocus.cc。限制在于,目前AI生成3D精细度有限,复杂角色或高多边形模型仍需专业建模软件。此外实时动画和物理效果等高级设计还不够智能,需要设计师介入调整。
- 平面设计领域AI:在UI和3D之外,平面设计也有AI工具。Canva引入了“Magic Design”功能,可根据用户上传的图片自动生成多版海报/社交帖模版,让用户挑选编辑。Adobe推出Firefly模型,支持生成自定义矢量图案、智能扩展图片背景等,已整合进Photoshop和Illustrator,帮助设计师加速创意迭代。一些排版AI还能根据内容自动调整字体大小、版式布局,让非设计人员也能做出美观的宣传图。
- 其他3D AI应用:NVIDIA的Canvas应用允许用户涂抹颜色块,AI将其转换为逼真的风景3D场景。还有Kaedim等AI服务可以通过输入多角度照片,自动生成对应的3D模型骨架供游戏使用。Luma AI通过NeRF技术让用户拿手机绕拍摄物体,AI生成其3D模型,实现真实物体快速数字化。
集成和展望: 设计类AI工具往往作为插件或辅助嵌入现有设计软件。例如Figma就有社区插件接入GPT-3用于生成文案或布局建议;Unity等3D引擎开始探索AI根据描述生成场景原型。对于企业团队,诸如Uizard也提供团队协作版,方便产品经理快速出原型与工程师沟通。AI设计能极大提升初稿产出效率,但目前精细打磨仍依赖人工审美。可以预见未来AI会不断学习优秀设计模式,甚至能交互式地根据反馈优化输出,充当设计师的智能助手。一些业界观点认为,设计师将从“亲手画每个像素”转变为“更多与AI对话,指导AI完成设计”,从而专注于更高层次的创意和体验把控。总之,AI赋能设计正让人人皆设计师成为可能,同时解放专业设计师去追求更具挑战性的创意实现。
10. 垂直领域AI应用
大模型的出现也催生了各行各业的专用AI助手和解决方案。在教育、医疗、法律、金融、客服、运营等垂直领域,AI通过定制训练与知识集成,展现出专业价值。以下逐一概述:
- 教育领域: AI可充当学生的智能导师和老师的教学助手。一些在线教育平台上线了AI答疑,如Khan Academy的“Khanmigo”利用GPT-4为学生提供个性化辅导(引导式提问而非直接给答案)。语言学习应用Duolingo推出Duolingo Max,利用GPT-4与用户角色扮演对话练习。国内方面,科大讯飞的星火大模型深耕教育场景:推出星火教师助手供教师备课用edu.iflytek.com。据统计,教师助手能让教学设计效率提升超50%,课件制作效率提升64%edu.iflytek.com。它可以自动生成单元教学计划、课件PPT、习题解析等,大大减轻老师备课负担edu.iflytek.com。对于学生,讯飞还有AI学习机产品,集合了大模型能力,可智能批改作业、诊断错题并推荐个性化练习zhuanlan.zhihu.com。另外,好未来推出了学而思九章大模型,用于课后辅导。可以看到,教育AI强调对知识点的掌握和讲解,通过融合教材题库数据,让学生提问时AI给出循序渐进的指导而非直接答案,帮助理解学习。AI在教育中的挑战在于确保内容准确无误且契合教学大纲,因此往往采用大模型+权威教材/专家规则的融合方案来保证可靠性。
- 医疗领域: 医疗AI需要专业性与安全性。大模型应用在此主要是问诊辅助和医学文献分析。如辉达(Nvidia)开发的Med-PaLM、商汤的医疗大模型等,能够回答医学知识、为医生提供诊断建议。但这类模型通常不直接面向患者,以免误诊风险,而是赋能医生。例如Glass AI是国外一款医生助手,可以根据症状给出鉴别诊断列表供医生参考。国内,科大讯飞让星火模型参加医师资格考试,成绩高于及格线,证明了AI掌握医学知识的潜力。一些医院开始试用临床对话系统:医生对患者描述病例时,AI实时转录并生成初步病历文书,以及可能的诊疗方案建议,然后由医生审阅修改clio.com。另外,在医学影像、药物研发中也有AI的用武之地(图像识别病灶、生成分子结构等),不过属于深度学习其他分支,不在本报告重点。总体上,医疗AI强调准确严谨,因此多采用专门训练(如BloombergGPT对金融,类比MedicalGPT对医学)并通过监管审批后方能实际应用。
- 法律领域: 法律服务正被称为“最适合AI”的行业之一,因为有大量制式文件和知识库。OpenAI与初创Harvey合作开发了法律大模型Harvey,并提供给全球多家顶级律所试用aimresearch.co。Harvey能帮助律师分析合同、进行尽职调查、生成法律备忘等aimresearch.co。例如上传一份合同,它可以标注潜在风险条款并提出修改建议therainmakerinstitute.com。它还可根据案情概述检索相关判例和法律条文,节省律师做research的时间。国内不少法院/仲裁机构也开发了法律AI助手。如北京互联网法院的**“笞子”智审系统,能对简单网络纠纷进行线上裁决建议。还有法律咨询平台上使用大模型自动回答用户的法律问题、生成合同范本等。不过法律AI目前多作为辅助**,最终决策要由执业律师或法官做出,以确保权威性。此外,法律语言严谨性要求AI回答必须非常准确,引述法条不能有偏差,这对模型提出了很高要求,往往需要结合结构化法律数据库实现。
- 金融领域: 金融业对AI的需求集中在分析建议和信息获取。最著名的是BloombergGPT,由彭博社训练的50B参数模型,它专门学习了海量财经数据(新闻、行情、公告),能够回答金融专业问题、生成财经简报等。还有Morgan Stanley与OpenAI合作,用GPT-4构建内部理财顾问助手:将十万页投资研究资料输入模型,让顾问用对话查询投资策略或市场见解,AI可以在海量知识中定位答案并给出综合分析wallstreetcn.com。这有效解放了隐藏在内部文件系统中的知识,提升理财顾问服务客户的效率wallstreetcn.com。银行也开始尝试AI客服来解答理财产品问询、模拟投资组合等。在交易方面,一些对冲基金据传用生成模型辅助写交易策略或新闻解读。但金融领域AI应用谨慎:需要符合合规要求且避免提供错误建议导致经济损失。因此通常作为专家的辅助手段出现,而不会让AI直接做交易决策或客户投资决策。
- 客服和运营支持: 客服是AI商用落地最快的领域之一。早在ChatGPT之前,各企业就有FAQ机器人。而现在的大模型赋能让客服机器人更智能:不仅能回答预设问题,还可实时从知识库提取答案并用自然语言表述。Salesforce Einstein GPT就是典型,它可以为客户服务人员自动生成回复草稿、总结客户提问并从公司知识库找出相关解答salesforce.com。这样客服人员只需稍加确认修改即可回复,大幅提升效率。Intercom公司的Fin AI客服在网站上直接面对客户咨询,解决率也很高。运营支持方面,AI可做内部IT支持问答、查找公司政策文件等。例如很多企业用Teams或Slack上的AI机器人,员工可以询问“怎么申请年假”之类,AI根据内部资料回答,免去人工HR咨询。RPA(机器人流程自动化)厂商也在集成大模型,比如UiPath推出Clipboard AI帮助自动解析Excel、邮件文本然后执行操作。Microsoft 365 Copilot可被视作办公运营支持AI:它能读取会议记录自动生成行动项,或根据邮件内容自动起草回复等,把繁琐日常任务交给AI处理,让员工专注更高价值的工作。
总的来看,垂直AI的关键在于“专业知识+大模型”结合。通常做法是先拿通用大模型做基础,然后用行业专有数据继续训练或提示强化,使其掌握行业术语和规则。此外还常结合检索,确保回答精准引用权威资料。这些领域的AI产品大多为商业付费服务,定向提供给企业使用,重视数据安全和结果可靠。例如律师事务所会要求AI部署在私有云以保护案件隐私;医院会严格验证AI诊断建议的可靠性。随着技术成熟,我们有望看到行业AI助手成为每个专业人士的标配助手 – 医生查guideline有AI,工程师调试代码有AI,客服解答问题有AI。一方面这将显著提高各行业生产力,另一方面人机协作的新模式也要求从业者掌握使用AI工具的技能,实现1+1>2的效果。
上一篇
Dify、n8n、扣子、Fastgpt、Ragflow到底该怎么选?超详细指南
下一篇
美国AI投融资事件
Loading...